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摘 要 : 针对 网 络 中 敏感 词 变 形体 识别 效率 不 高 的 问题 ， 提 出 了 基于 决策 树 的 敏感 词 变 形体 识别 算法 。 首 先 ， 

分 析 汉 字 的 结构 和 读音 等 特征 ， 研 究 敏 感 词 及 变形 体 ; 其 次 ， 基 于 敏感 词 库 构 建 敏感 词 决策 树 ; 最 后 ， we 
改进 模型 ， 对 微 博 等 新 媒体 的 文本 敏感 程度 进行 计算 。 实 验 结果 表明 ， 该 算法 在 识别 中 文敏 感 词 及 变形 体 时 ， 查 全 
率 和 查 准 率 最 高 分 别 可 达 95% 和 94%， 与 基于 确定 有 穷 自 动机 的 改进 算法 相 比 ， 查 全 率 和 查 准 率 分 别提 高 19.8% 和 
21.1%; 与 敏感 信息 决策 树 信 息 过 滤 算 法 相 比 ， 查 全 率 和 查 准 率 分 别提 高 17.9% 和 18.1% 。 通 过 分 析 ， 该 算法 对 敏 
感 词 变 形体 的 识别 和 自动 过 滤 是 有 效 的 。 
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Research and application of change form of sensitive words recognition algorithm 
based on decision tree 
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Abstract: In order to solve the problem that the recognition efficiency of sensitive word deformed bodies of the network 
text js not high, this paper proposed a sensitive word deformed bodies recognition algorithm based on decision tree. Firstly, 
it studied sensitive words and deformed bodies by analyzing the characteristics of Chinese characters and pronunciation and 
SO on. Secondly, it constructed a sensitive word decision tree based on sensitive word library. Finally, it calculated the text 
sensitivity of new media such as Weibo by multi-factor improvement model. The experimental results Show that the 
proposed algorithm can achieve the highest recall rate and precision rate of 95% and 94% respectively when identifying 
Chinese sensitive words and deformed bodies. Compared with the improved algorithm based on the finite automaton, the 
recall rate and the precision rate are increased by 19.8% and 21.1% respectively. Compared with the sensitive information 
decision tree information filtering algorithm, the recall rate and the precision rate are increased by 17.9% and 18.1%. The 
analysis show that the algorithm is effective in the recognition and automatic filtering of sensitive word deformed bodies. 


Key words: sensitive word recognition; sensitive word deformable body; decision tree; sensitivity computation; multi factor 


model 
= ee 需要 对 人 工 构 建 词 与 词 之 间 的 关联 。 文献 [和] 提出 一 种 基于 确 
瑟 定 有 穷 自动 机 的 改进 算法 ， 通 过 敏感 词 拼音 的 第 一 个 字母 来 


随 着 互联 网 的 快速 发 展 ， 网 络 信息 呈 指 数 级 增长 ， 非 法 ”构建 敏感 信息 决策 树 ， ee 库 ， 能 
言论 〈 如 黄 赌 毒 、 恐 怖 、 暴 力 血 腥 信 息 ) 经常 充 斥 其 中 (3， 够 提高 敏感 信息 的 检测 效率 ， 缺 点 是 对 敏感 词 变形 体 无 处 理 
这 些 不 良 信息 通常 带 有 一 些 敏感 词汇 ， 并 大量 以 变形 体 的 形 。 能 力 。 文献 [5] 提 出 祁 地 内 信息 多 策 树 信息 过 滤 算 法 ， 同 样 
式 出 现 ， 给 民众 尤其 是 青少年 带 来 了 巨大 的 伤害 ， 对 国家 安 ”通过 构建 敏感 词 决策 树 提 高 检索 速度 ， 并 通过 给 出 敏感 词 权 
全 、 社 会 稳定 和 网 康 形成 严重 威胁 。 微 博 作 为 新 重 以 达到 敏感 文本 检测 和 过 滤 的 目的 。 该 方法 依赖 人 工 确定 

敏 


交 
落 
吕 
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型 的 广播 式 社交 网 络 平台 ， 以 实时 、 便 捷 的 特点 广泛 传播 、 敏感 级 别 ， 难 以 客观 地 表现 文本 的 敏感 程度 ， 而 且 缺 少 对 龟 
分 享 和 获取 简短 信息 ， 但 由 于 用 户 群 庞大 及 监管 能 力 有 限 等 ” 感 词 变形 体 的 分 析 和 识别 。 文 献 [0] 针 对 变异 的 敏感 词汇 提 H 
忆 素 ， 不 法 分 子 经 常 将 敏感 词汇 散布 其 中 。 因 此 ， 对 于 微 博 。 了 一 种 方法 ,该 方法 将 某 些 特殊 字符 转换 成 形状 相似 的 字母 
等 新 媒体 中 的 敏感 词 及 其 变形 体 的 识别 和 过 滤 已 经 成 为 了 迫 然后 再 进行 检测 ， 但 是 对 变异 的 变形 体 识 别 效率 不 高 。 文 南 
切 需要 解决 的 研究 课题 。 [7] 采 用 机 器 学 习 的 方法 ， 通 过 采用 bigram、 词 干 等 作为 特 和 
前 众多 学 者 对 敏感 词 及 其 变形 体 的 识别 和 过 滤 问 题 纷 ” 值 来 对 文本 信息 做 分 类 分 析 ， 以 检测 出 变形 体 。 这 些 方法 对 
纷 展开 研究 。 文 献 [3] 提 出 了 通过 构建 CNN-like 词 网 对 文本 ”英文 字符 有 较 好 的 处 理 效 果 ， 但 没有 将 中 文敏 感 词 变 形体 考 
敏感 词 进行 分 析 处 理 ， 提 高 了 敏感 词 检测 的 准确 率 ， 缺 点 是 。 虑 在 内 。 
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总 之 ， 目 前 在 中 文敏 感 词 变形 体 识别 与 过 滤 的 研究 中 人 工 拆 分 ， 并 采用 区 位 码 进行 编码 形成 汉字 拆 分 表 ， 如 表 1 


存在 对 敏感 词 变 形体 分 析 不 足 、 
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余 敦 逻 ， 等 : 基于 决策 树 的 敏感 词 变形 体 识 别 算 法 研究 及 应 用 


识 


为 此 ， 本 文 提 出 了 基于 决策 树 的 敏感 词 变 形体 识别 算 


(recognition of sensitive words based on decision tree, 


RSWDT)， 着 力 解 决 敏感 词 变 形体 识别 与 过 滤 问 题 。 首 先 ， 
根据 汉字 的 读音 和 结构 ， 分 析 词 的 拼音 模式 、 词 的 简称 和 i 


然后 , 扩充 现 有 的 敏感 词 库 ， 


的 拆 分 三 种 敏感 词 变 形体 模式 ; 


2 


在 敏感 词 库 中 增加 词 的 拼音 、 区 位 码 以 及 拆 分 后 的 区 位 码 等 
信息 ， 进 而 根据 敏感 词 库 构建 敏感 词 决策 树 来 实 


变形 体 的 准确 识别 ， 最 后 ， 结 合 改进 的 多 因子 模型 ， 针 对 
博 、 博 客 、 网 络 评论 等 网 络 文本 ， 计 算 文 本 敏感 程 


敏感 文本 的 自动 过 滤 。 
1 ”问题 描述 
1.1 敏感 词 变 形体 分 析 及 处 理 


本 文 研究 的 敏感 词 变形 体 包 括 词 的 拼音 模式 、 词 的 简 
模式 和 词 的 拆 分 模式 由 。 由 于 现在 各 个 网 络 平台 对 信息 的 


查 越 来 越 严格 ,很 多 网 络 文本 中 的 敏感 词 以 变形 体形 式 出 现 ， 
包括 词 的 拼音 模式 、 词 的 简称 模式 和 词 的 拆 分 模式 。 以 词 “ 贩 


卖 毒 品 ” 为 例 ， 其 变形 体 的 具体 结构 如 图 1 所 示 。 


拼音 : fanmaidupin 


FE 司 * 
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只 别 与 过 滤 效 率 偏 低 等 问题 。 


法 


网 对 敏感 词 


微 
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拆 分 : 贝 反 卖 毒 


| 


拼音 : fandu | 


| 


拆 分 ， 贝 反 毒 


Fig.1 Structure diagram 


1) 词 的 拼音 模式 


表示 为 声母 /韵母 和 声调 三 部 分 ， 


图 1 词 变 形体 结构 


of change form of word 


在 中 文中 ， 同 一 个 汉语 拼音 可 能 对 应 多 个 不 同 的 汉字 
如 文献 [8] 所 示 ， 本 文采 用 三 位 音 码 的 形式 ， 即 将 汉字 的 拼 


o 


ey 
日 


并 将 每 部 分 分 别 采用 英文 


母 a， 和 六 等 来 进行 编码 ， 


从 而 将 一 个 汉字 转换 成 


列 的 字符 序列 即 音 码 ， 将 以 便 进行 下 一 步 的 计算 和 比较 。 


2) 词 的 简称 模式 


据 统 计 ， 在 汉语 新 闻 文 章 里 ， 在 20% 左 右 的 句子 可 能 


TT 
系 


有 缩 略 语 中 ， 包 括 首 字母 缩写 和 词 的 缩写 。 其 中 首 字母 缩 
如 “法 轮 功 ”缩写 为 “flg”"。 词 的 缩写 的 一 般 分 为 压缩 、 节 上 略 
统 括 09 三 种 形式 ， 其 中 又 以 压缩 和 节 略 的 组 合生 成 模式 最 
为 常见 。 压 缩 是 指 把 全 称 分 割 为 几 个 词语 ， 然 后 从 每 个 词 


中 抽取 最 能 代表 原 义 的 汉字 保 


， 如 “贩卖 \ 毒 品 ” 的 简称 


“由 毒 " 节 略 是 指 在 全 称 中 直接 4 


去 部 分 词语 ， 留 下 另 一 部 


基本 思想 都 是 从 全 称 中 选取 前 
称 。 在 重 


词语 作为 简称 ， 如 “复旦 \ 大 学 ”的 简称 为 “复旦 ”。 压 缩 和 节 
的 


了 分 汉字 或 者 词语 重组 形成 


组 的 过 程 中 ， 字 序 一 般 不 会 发 生 改变 。 简 称 中 的 


可 


和 


语 
为 
分 
略 
简 


汉 


字 全 部 包含 于 词 的 全 称 中 ， 因 此 ， 找 到 词 全 称 的 子 集 就 可 以 


找到 其 简称 。 
3) 词 的 拆 分 模式 


根据 汉字 的 构成 单位 可 把 汉字 分 为 独 体 字 、 合 体 字 两 类 。 


独 体 字 《〈 日 、 月 等 ) 由 笔画 构成 ， 合 体 字 《 休 、 取 等 ) 则 
遍 旁 构成 。 汉 字 的 空间 上 的 关系 有 相交 、 相 离 、 相 接 00。 
字 的 方位 上 的 关系 有 上 下 、 左 右 ， 内 外 、 框 架 、 独 体 。 区 


一 、 


汉字 或 符号 。 根 据 以 上 汉字 特 生 


码 是 一 个 四 位 的 十 进 制 数 ， 每 个 区 位 码 都 对 应 着 一 个 唯一 的 


FE 对 敏感 词 列表 中 的 汉字 进 


汉 


他 


行 
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所 示 。 
表 1 汉字 拆 分 表 
‘Table 1] Table of word splitting 
汉字 区 位 码 拆 分 区 位 码 
法 2308 7 去 6763 4005 
秀 4526 不 几 2644 2824 
四 2590 口 玉 3158 5181 


位 码 。 
1.2 整体 方案 


为 了 识别 出 敏感 词 拆 分 的 变形 体 ， 首 先 根据 汉字 拆 分 表 
把 敏感 词 与 疑似 敏感 词 变 形体 进行 拆 分 ， 


转换 成 相应 的 区 


为 达到 敏感 信息 自动 过 滤 的 目的 ， 采 取 以 下 步 又 : 
a) 基于 决策 树 的 敏感 词 变 形体 识别 。 


对 词 的 拼音 、 


词 的 简称 和 词 的 拆 分 三 种 敏感 词 变 形体 ， 
根据 查找 敏感 词 库 、 构 建 决策 树 、 利 用 决策 树 对 敏感 词 识 别 


的 方法 ， 最 后 提出 了 基于 决策 树 的 敏感 词 变形 体 识 别 算法 。 


b) 时 于 多 医 


根据 识别 出 


子 改进 模型 的 敏感 信息 自动 过 滤 。 
的 敏感 词 及 其 变形 


体 ， 考 虑 文本 中 敏感 词 的 


位 置 、 频 繁 度 以 及 类 别 等 因素 , 并 基于 改进 后 的 多 因子 模型 ， 


对 文本 的 敏感 程 
对 文本 进行 相应 


2 ”基于 决策 树 的 敏感 词 变 形体 识别 
2.1 敏感 词 决策 树 建立 


度 进行 计算 ， 然 后 根据 文本 的 敏感 程度 大 小 
的 处 理 ， 进 而 达到 自动 过 滤 的 效果 。 


通过 对 敏感 词 及 其 变形 体 的 分 析 ， 了 解 到 对 敏感 词 变形 


的 识别 一 一 需 对 每 个 汉字 做 拼音 、 音 码 以 


及 区 位 码 分 析 。 


体 
天 
建 之 前 ， 对 已 有 的 敏感 词 库 ( 表 2) 进行 信 
嵌 已 知 敏感 词 汉 字 的 拼音 、 音 码 以 及 区 位 码 
于 决策 树 的 建立 及 存储 ， 为 建立 决策 树 提供 


此 ， 为 了 准确 地 查询 和 匹配 敏感 词 变形 体 ， 需 在 决策 树 构 


息 扩 充 ， 用 于 在 
等 相关 信息 ， 便 
依据 。 


表 2 敏感 词 库 
Table 2 Library of sensitive words 
首 导 汉字 及 拼音 音 码 区 位 码 拆 分 后 区 位 码 敏感 词 
A 安 (an) HA 1618 ”69183714 安眠药， 安乐 死 .………. 
B 八 (ba) AAA 1643 1643 八 嘎 .…… 
C 草 (cao) TFC 1861 6019 5271 草 泥 马 .….. 
元 作 (zuo) SXD 5587 56745307 作 死 .……， 


决策 树 构建 算法 将 敏感 词 库 中 的 敏感 词 按 第 一 个 字 的 拼 
音 首 字 母 分 类 。 同 时 ， 再 对 首 字母 进行 同 字 


相同 的 敏感 词 在 一 个 分 支 下 ， 使 相同 的 字 只 
提高 检索 速度 ， 节 约 存储 空间 。 在 节点 存储 


聚 类 ， 使 首 字母 


该 汉字 的 拼音 、 音 码 及 对 应 的 区 位 码 也 存储 


存储 一 次 ， 便 于 
汉字 的 同时 ， 将 
起 来 。 叶 子 节点 


用 于 记录 算法 识别 出 的 敏感 词 或 者 敏感 词 变 形体 的 位 置 以 及 
类 别 。 其 中 每 个 叶子 节点 敏感 词 位 置 与 类 别 
据 类 哈 夫 曼 编 码 规则 制定 ， 当 分 支 数 大 于 2 
数 标记 。 当 出 现 词 的 拼音 、 词 的 简称 和 词 的 


识别 算法 也 同村 
死 ” 


将 敏感 词 库 人 


# 能够 将 其 检测 出 来 ， 如 “ 安 


FE 为 决策 树 构 建 算法 的 输入 


词 决策 树 ， 如 图 


敏感 词 库 5 


数 ，s; 表示 敏感 词 ; 
第 i 个 敏感 词 的 第 


2 所 示 。 


{S0812...2519.1.75n1} , (0<i<n) 


Si ={ Sios Streit} 


信息 的 下 标 ， 根 
时 ， 用 实际 分 支 
拆 分 时 ， 决 策 树 


mian 药 ”“1 秆 


， 输 出 一 棵 敏感 


，a 为 敏感 词 个 
(0<jJ<1) ,sr 表示 


7 个 敏感 字 ，! 表示 敏感 词 长 度 。 
为 识别 敏感 词 变形 体 ， 通 过 敏感 词 划 


策 树 构 建 算法 
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余 敦 辉 ， 


(establishment of sensitive word decision tree algorithm, 


ESDT)， 首 先 将 敏感 词 库 作 为 输入 ， 建 立根 节 上 
首 字母 建立 分 支 。 若 敏感 词 库 的 敏感 词 汉字 信息 与 决策 树 节 
点 ; 若 匹 配 继续 向 下 查找 ， 不 


点 信 


立 码 ; 若 不 匹配 ， 


直至 
决策 树 。 


眠 
(mian, NDB, 3563) 


药 
(yao, PHD, 5009) 


息 匹 配 时 ， 查 找 其 孩子 
匹配 时 建立 新 节点 ， 并 存储 敏感 词 汉字 及 其 # 


(an, GA, 1618) 


点 ; 然后 通过 


等 : 基于 决策 树 的 敏感 词 变形 体 识别 算法 研究 及 应 用 


息 进行 
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匹配。 当 疑 似 敏 感 词 变 形体 为 汉字 与 拼音 时 ， 此 为 词 


的 拼音 如 


音 、 音 码 及 区 


Xx 


查找 兄弟 节点 是 否 


节点 的 孩子 节点 ， 并 存储 敏感 词 汉字 信息 ; 


L 配 ， 者 匹配 建立 兄弟 


特殊 字 


者 词 的 简称 模式 ， 直 接 进行 匹配 ， 当 疑似 敏感 词 为 
符 或 者 汉字 部 首 时 ， 获 取 区 位 码 ， 在 拆 分 表 中 进行 匹 


配 。 若 
第 节点 


若 相 同 进行 下 一 个 字符 比较 ， 不 同 则 查找 孩子 节点 及 兄 
， 直 至 叶子 节点 。 若 匹配 成 功 ， 在 叶子 节点 记录 敏感 


4 
匹配 :最 后 输出 敏感 词 决 策 树 


体位 置 及 类 别 。 然 后 输入 下 一 个 疑似 敏感 词 ， 继 续 


否则 建立 新 的 节 


攻 感 词 库 的 敏感 词 全 部 输入 建立 完毕 


死 
(si, ROC, 4332) 


点 , 直至 将 敏感 词 中 的 所 有 汉字 存储 完毕 , 再 建立 叶子 节点 ， 
用 于 存储 敏感 词 的 位 置 和 类 别 信息 


,然后 输入 下 一 个 敏感 词 ， 
。 最 后 输出 敏感 词 


死 
(si, ROC, 4332) 


loczoiotypezoio 


locaoootypeaooo 


locao10,typeao10 


图 2 敏感 词 决 策 


树 图 


Fig. 2 Sensitive word decision tree graph 


算法 具体 执行 过 程 如 算法 1 所 示 。 


算法 1 ESDT algorithm 


输入 :敏感 词 库 5 。 
:敏感 词 决策 树 。 
j=0, 


输出 
a) 初始 化 i=0， 
b) 输入 敏感 词 


返回 步骤 c); 7>7! ，i++， 
查找 childi 的 兄弟 节 
点 为 空 , 创建 新 节点 childi, ， 
区 位 码 ， 

f) 若 j<1 ,创建 子 节点 ， 并 赋值 5; ， 
步骤 f) 继 续 处 理 ; 否 
化 敏感 词 的 位 置 及 类 别 ， 
若 childi 兄弟 节 


e) 若 sy childi ， 


的 拼音 、 音 码 以 及 


8g) 否则 ， 
一 个 敏感 词 ; 
h) 算法 结束 。 


本 文 算法 构建 的 敏感 词 决策 树 深度 为 敏感 词 库 
感 词 的 长 度 ， 一 般 <10。 树 


6. 若 child 见 弟 节 


k=0,， 


值 ， 则 7++ ， 
i<n， 返 


k 记录 孩子 节点 序号 
% ， 获 取 其 中 文 长 度 为 1 ， 
c) 进入 了 子 树 查询 ， 将 号 与 7 的 第 大 个 孩子 节点 child 
d) 若 5 一 childi 节点 的 


并 获取 其 首 字 


J <1， 


J++。 


1 十 十 ; 


和 


点 不 为 空 ， 


可 步骤 b); 否则 ， 


日. 不 > 
点 是 否 为 空 。 


记录 5 的 拼音 ， 


i 则 ， 最 后 一 个 节点 记录 敏感 词 相关 信 
返回 步骤 b); 否则 ， 


作 
(zuo, QSD, 5587) 


s=child,, 


值 为 5; ， 


母 7 。 


攻 较 。 
大 =0 ， 


记录 5 


7++ 3 转 
息 ， 初 始 


结束 。 


k++ ， 返 回 步骤 b)， 处 理 


FP 最 长 敏 
Ph 每 个 节点 都 存储 了 敏感 词 汉字 


以 及 其 对 应 的 拼音 、 音 码 以 及 区 位 码 ， 叶 节点 还 记录 了 敏感 


词 的 位 置 和 类 别 信息 ， 并 将 各 个 词 的 位 


始 化 。 


2.2 敏感 词 变形 体 识 别 
为 了 准确 识别 出 敏感 词 及 其 变形 体 ， 算 法 首先 获取 含有 


疑似 敏感 词 变 


lB 体 的 文本 ; 然后 输入 敏感 词 
首 字母 进入 分 支 ， 将 疑似 敏感 词 的 字符 与 决策 树 中 的 节点 信 


和 类 别 都 进行 了 初 


策 树 中 ， 获 取 


-人 
输出 


号。 


b) 输入 文本 字符 ， 


算法 2 
输入 : 
大 三 信用 5 
:决策 树叶 子 节点 信息 ， 
a) 初始 化 i=0，k=0,， 用 于 记录 第 一 个 i 


叶子 节点 的 信息 ， 即 敏感 词 及 
算法 具体 的 执行 过 程 如 算法 


后 靳 


百 心 \o 


体 对 应 位 置 及 类 别 


RSWDT algorithm 
敏感 词 决策 树 ， 含 疑似 敏感 词 变 形体 文本 了 7， 
，(0<i<n) ,为 文本 字符 , n 为 文本 字符 个 数 。 
敏感 词 及 其 变形 体 。 


入 分 支 的 字符 序列 


j=0 ，k=i ， 判 断 是否 为 中 文 、 英 文 


字符 或 者 汉字 偏旁 部 
直接 获取 ， 汉 字 偏 旁 部 首 获取 其 区 位 码 。 
c) 将 #4 与 7 的 孩子 childj 相 匹配 。 

d) 车 二 child, 


进行 匹配 ， 否 
e) 若 childj->child=NULL ,在 叶子 节点 记录 位 置 ocy 、 
输出 敏感 词 或 者 敏感 词 变 形体 转 到 步骤 5) 处 理 。 


。 如 果 是 中 文字 符 ， 需 要 提取 首 字母 1 ， 英 文 


节点 值 ， 
算法 结束 。 


i++。 若 i<n，, 将 6 与 child,->child 
Wi>n, 


Typer ， 


f) 车 childj->child # NULL ， 转 到 步骤 d) 处 理 。 


8g) 若 zchild; 的 值 ， 
child, 
h) 若 兄 弟 节 

i) 若 见 弟 节点 为 空 


若 i> 


child;—> child 
点 是 否 为 空 。 

转 步 又 c); 

， 则 i=k+1， 着 i<n， 


将 二 与 
一 > child=NULL 查询 cnild) 兄弟 节 


匹配 ， 直 到 


点 不 为 空 ， 则 j++， 


则 转 到 步骤 b) 处 理 ; 


n ， 则 算法 结束 。 


j) 算法 结束 。 
3 ”基于 多 因子 模型 的 敏感 信息 过 滤 


多 
合 所 选 
本 文选 
别 和 文 
子 ， 对 

策 树 输 
计算 出 


a) 输 出 叶 


息 集合 。 


中 根据 


b) 计 算 每 个 敏感 词 或 者 敏感 词 变形 体 的 


因子 模型 常 被 应 用 于 金融 领域 ， 用 于 量化 投资 时 ， 综 
取 的 多 个 因子 , 针对 投资 决策 进行 最 终 的 判断 。 在 此 ， 
取 文本 中 敏感 词 所 处 的 位 置 、 文 本 中 敏感 词 所 属 的 类 
本 中 敏感 词 出 现 的 频繁 度 等 作为 文本 敏感 信和 度 计算 因 
包含 敏感 信息 的 文本 进行 自动 过 滤 。 为 此 本 文通 过 决 
出 叶子 节点 信息 中 的 敏感 词 及 其 变形 体位 置 和 类 别 ， 

文本 敏感 程度 ， 步 又 如 下 : 
子 节 点 中 每 个 敏感 词 


的 位 置信 息 ， 构 成 位 置信 


立 置 敏感 度 ， 其 
立 置 信息 次 数 的 累加 ， 可 得 到 频繁 度 信 息 ， 即 位 置信 


息 计算 已 
C 
体 所 属 
进行 计 


让 


包含 对 频繁 度 计算 。 
再 根据 敏感 词类 型 表 ， 查 找 每 个 敏感 词 和 敏感 词 变形 
类 型 。 每 个 类 型 占有 不 同 的 权重 ， 将 其 与 位 置 敏感 度 
算 ， 得 到 每 个 词 的 敏感 度 。 


d) 将 每 个 词 的 敏感 度 累计 ， 得 到 文本 的 敏感 程度 。 文 本 
的 敏感 程度 可 以 辅助 文本 自动 审查 的 完成 。 
3.1 词 的 拼音 模式 敏感 词 的 位 置信 息 获取 

从 决策 树 中 获取 全 部 敏感 词 及 变形 体 集 合 
S={s0xs.…52.…7544} (0<i<m 及 其 每 个 敏感 词 的 位 置信 息 ， 构 
成 敏感 词 位 置信 息 集 合 Loc={20.00 (0<i<n) ,其 中 : n 
为 敏感 词 个 数 ; 2 表示 敏感 词 在 文本 中 的 所 在 位 置 ， 用 于 计 
算 位 置 敏感 度 。 


201904.00067V1 
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于 信息 太 多 ,为 了 在 最 短 的 时 间 内 获取 到 更 多 的 信息 ， 
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为 避免 正 向 性 文本 被 删除 ， 


录用 定稿 余 教 逻 ， 等 : 基于 决策 树 的 敏感 词 变形 体 识别 算法 研究 及 应 用 
3.2 敏感 词 及 变形 体位 置 敏感 度 计算 的 文本 敏感 程度 和 设 定 阅 值 作 比 较 , 敏感 程度 高 于 4 


的 文本 ， 
其 中 含有 较 大 数量 的 敏感 词 ， 例 


人 们 往往 只 对 信息 的 头 部 与 尾部 进行 浏览 ， 这 也 符合 人 们 总 如 一 些 反 对 敏感 信息 的 文本 中 包含 大 量 敏感 词 或 政府 机 关 用 
是 喜欢 把 概括 性 描述 写 在 文章 的 头 部 与 尾部 的 习惯 。 因 此 ， 于 抵制 敏感 词 的 文章 ， 比 如 抵制 贩毒 的 政府 公文 。 进 一 步 判 
敏感 词 出 现在 文本 的 头 部 对 文本 敏感 程度 的 影响 要 比 敏 感 词 断 其 文本 的 正 向 、 反 向 性 。 若 属于 反 向 文本 ， 直 接 从 网 络 平 
出 现在 尾部 对 文本 敏感 程度 的 影响 要 大 ， 敏 感 词 出 现在 文本 台 删 除 并 追究 其 作者 相应 的 责任 ;敏感 程度 介 于 4 与 之 间 
的 尾部 对 文本 敏感 程度 的 影响 要 比 敏感 词 出 现在 文本 其 他 位 的 文本 , 需要 接收 相关 部 分 的 审查 ; 敏感 程度 低 于 = 的 文本 ， 
置 对 文本 敏感 程度 的 影响 要 大 ,敏感 词 s; 的 位 置 敏 感度 如 下 : 则 不 需要 作 处 理 。 文本 自动 过 滤 算 法 (automatic text filtering， 
a 0<lza ATF) 具体 的 执行 过 程 如 算法 3 所 示 。 
Soe(si)=4B a<lsb (1) 算法 3 ATF algorithm 


A b<l,<len(t) 


中 a 、 8 、4 表示 敏感 词 * 分 别 位 于 文本 头 部 、 中 部 、 
尾部 的 位 置 权重 ， = 他 中 ，a 为 文本 + 头 部 与 中 部 的 分 界 值 ， 


b= 全 ，b 为 文本 (中 部 与 尾部 的 分 界 值 ，/ 为 敏感 词 * 对 


应 的 
3.3 


政 社会 生活 类 、 法 律 法 规 类 、 民 族 宗教 类 、 


权 类 


位 置信 息 。 
敏感 词 及 变形 体 类 别 敏感 度 计算 


本 文 依据 新 华 社 发 表 的 禁 / 


j 词 规定 ， 可 将 敏感 词 分 为 时 
港澳 台 和 领土 主 
、 国 际 关系 类 五 大 类 。 表 3 是 每 个 类 别 的 敏感 词 部 分 例 


Ts 


表 3 敏感 词 分 类 举例 


Table 3 Examples of classification of sensitive words 


敏感 词类 别 敏感 词 举例 


时 政 社 会 生活 类 


装 逼 ， 草 泥 马 ， 特 么 的 


法 律 法 规 类 罪犯 , 工人 小 偷 ， 检 查 院 院 长 
民族 宗教 类 鲜 族 ， 回 回 ， 亦 子 

港澳 台 和 领土 主权 类 内 港 ， 内 澳 ， 台 独 
国际 关系 类 北朝 鲜 ， 穆 斯 林 国 家 ， 阿 拉 伯 民兵 


为 此 
析 法 
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每 个 类 别 中 的 敏感 词 对 文本 敏感 程度 的 影响 是 不 同 的 ， 
需要 确定 这 五 个 类 别 之 间 的 相对 权重 ， 本 文采 用 层次 分 
0253 给 出 了 一 种 权 值 的 计算 方法 。 
根据 上 一 节 敏 感 词 的 分 类 ， 本 文 假设 敏感 词 的 类 别 集合 


为 7={T,T,T,T,T}， 其 中 人 表示 时 政 社会 生活 类 ; 工 表 示 法 


律 法 


规 类 ; 表示 民族 宗教 类 ; T 表示 港澳 台 和 领土 主权 类 ; 


相对 
对 权 
3.4 


别 和 
文本 


置 敏 
本 长 


敏感 


3.5 


参考 。 


玉 表示 


其 中 : 


际 关 系 类。 本 文采 用 层次 分 析 法 确定 敏感 词类 别 的 
权重 ， 得 到 bypG) 。 fpGi) 表示 敏感 词 s 所 对 应 类 别 的 相 
重 。 

文本 敏感 度 计算 

以 多 因子 模型 选取 出 来 的 敏感 词 所 处 的 位 置 、 所 属 的 类 
频繁 度 等 作为 文本 敏感 信和 度 计算 因子 , 利用 式 (2) 计算 
的 敏感 程度 。 


Eo 
[al 


$s 5)x typ(s) 


sD)= 忆 一 一 


?代表 文本 上 的 敏感 程度 sv.(s) 表示 敏感 词 s 的 位 


感度 typ(s) 表示 人 敏感 词 s 所 对 应 类 别 敏感 度 n 表示 文 
度 。 
利用 归 一 化 方法 将 s(?) 的 值 映射 到 [0,1] 区 间 , 则 文本 的 
程度 为 

sD)= oH, =,2,..,7) (3) 
文本 敏感 信息 过 滤 算 法 


本 文通 过 计算 文本 敏感 程度 ， 为 网 络 平台 处 理 文本 提供 
设 定 两 个 闪 值 41、= (es<4<1)， 将 上 述 公 式 计 算出 


输入 :文体 + 。 
输出 :文本 t 的 处 理 结 


a) 基于 决策 树 输出 叶子 节点 信息 中 的 敏感 词 及 其 变 
5 ， 并 输出 其 位 置 和 类 型 ， 形成 敏感 词 及 其 变形 体 


S={soxs 


位 置信 息 集合 Loc ={o2 力 1 。 
b) 计算 每 个 敏感 词 或 者 敏感 词 变 


区 体 的 位 置 敏 感度 ， 其 


信息 次 数 的 累加 ， 可 得 到 频繁 度 信息 swc (5;) 。 


c) 基于 敏感 词类 型 表 ， 
d) 取 阔 值 41、2E (4>e)。 

e) 基于 多 因子 模型 ， 计 算 该 文本 t 的 敏感 度 
f) 对 YU) 进行 归 一 化 ， 得 到 s(1) 。 


计算 每 个 词 的 类 型 敏感 度 typ(s;) 。 


s'(1)。 


体 集合 


根据 位 置 


g) 当 s(O)>4， 则 网 络 平台 应 判断 文本 正 向 、 反 向 性 。 反 向 则 删除 文 


本 t。 当 s<s()<4， 则 + 需 
要 处 理 。 
h) 算法 结束 。 


4 ”实验 与 分 析 


进行 人 工 审查 ; 当 s(1)<z， 则 t 不 需 


为 了 验证 文本 敏感 程度 计算 方法 的 可 行 特 


E， 搭 建 了 实验 


环境 ， 选 择 了 合适 的 数据 进行 实验 ， 通 过 给 定 不 同 的 实验 条 


件 ， 收 集 实验 数据 
4.1 实验 环境 


本 实验 在 具有 2.4 GHz Inter(CoreGMi7 处 理 器 8 GB 内 
操作 系统 为 Windows 10， 编 程 工 具 》 


存 的 机 器 上 运行 ， 

Pycharm， 编 程 语言 为 Python 。 

4.2 数据 集 
为 了 评估 面 


向 中 文敏 感 词 变 


多 体 的 识 另 


对 实验 结果 进行 不 同 角度 的 分 析 。 


为 


I 方法 的 效果 ， 本 


文 从 CSDN(https://download.csdn.net) 下 载 了 含有 疑似 敏感 词 


的 26 728 
娱乐 等 类 型 ) 作 为 测试 数据 集 。 
对 数据 集中 的 敏感 词 及 其 变 
选 出 包含 敏感 词 变 
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个 敏感 词 及 变形 体 1 288 个 ， 


词 的 拆 分 三 种 变形 体 情况 ， 并 将 识别 出 
表 中 。 数 据 集中 所 抽取 的 敏感 词 变形 体 上 
所 示 。 


表 4 敏感 词 变 形体 的 部 分 


举例 


条 新 浪 微 博文 本 (包含 科技 、 体 育 、 金 融 、 社 会 、 
首先 对 数据 进行 预 处 理 ， 
攻 体 进行 人 工 的 识别 和 分 类 ， 得 
乡 体 的 文本 共 3 835 篇 ， 其 中 

涵盖 了 词 的 拼音 、 词 


然后 


pb 共 发 现 554 
的 简称 、 
的 敏感 词 存 入 敏感 词 
的 部 分 举例 ， 如 表 4 


Table 4 Examples of sensitive word deformed bodies 
敏感 词 。 ” 词 的 拼音 。 ” 词 的 简称 词 的 拆 分 
法 轮 功 falungong flg 》 去 车 仑 工 力 
兴奋 剂 xingfenji x 兴 大 田 齐 | 
贩卖 毒品 fanmaidupin 贩毒 fmdp 贝 反 卖 毒 口 口 
袭 警 Xijing Xj 龙 衣 敬 言 


4.3 实验 分 析 
4.3.1 敏感 词 识 别 算法 的 对 比分 析 


在 实验 1 中 ， 根 据 文本 篇 数 和 文本 长 度 的 变化 ， 通 过 本 


文 提出 的 RSWDT 算法 与 基于 确定 有 穷 自 


动机 的 改进 全 


算法 


1 


的 识别 就 对 实验 结果 有 很 大 影响 。RSWDT 算法 随 着 数据 的 
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(ST-DFA)、 敏 感 信息 决策 树 信 息 过 滤 算 法 (SWDTIFA) 两 “如 图 4 (a) 所 示 ， 查 准 率 对 比 实验 结果 如 图 4 (pb) 所 示 。 
种 算法 在 敏感 词 变形 体 查 准 率 和 查 全 率 两 个 方面 的 比较 来 验 
证 本 算法 的 有 效 性 。 95% 
a) 文 本 篇 数 对 敏感 词 及 变形 体 识别 的 查 全 率 和 查 准 率 的 90% 
影响 对 比 。 85% 
在 本 实验 中 选取 含有 敏感 词 变形 体 的 文本 1 500 篇 ， 将 和 80% 
其 随机 分 成 五 组 进行 测试 : 第 一 组 为 WO 篇 ， 第 二 组 为 一 一 RSWDT 
篇 ， 第 三 组 为 300 篇 ， 第 四 组 为 400 篇 ， 第 五 组 为 500 篇 人 一 STDFA 
RSWDT 与 SETDFA 和 SWDT-IFA 的 查 全 率 对 比 实验 结 人 SWDTFA 
% 
果 如 图 3 (a) 所 示 ， 查 准 率 对 比 实验 结果 如 图 3 (b) 所 示 。 i 56 84 1 140 
00% 文本 长 度 
0 (a) 查 全 率 
下 的 (a)Recall rate 
85% 
全 80% 
若 100% 
75% 
—e— RSWDT 95% 
Zo 一 号 一 ST-DFA gon 
65% SWDT-IFA 
85% 
00 100 200 300 400 500 和 
文本 篇 数 区 
四 ) 查 全 率 75% 
70% 
(a)Recall rate 
65% 
100% 60% 
5 28 56 84 112 140 
文本 长 度 
90% 
9 查 准 谈 
全 和 下 (b) 查 准 率 
80% (b)Accuracy 
75% —e— RSWDT 图 4 查 全 率 和 查 准 率 随 文 本 长 度 改变 的 变化 趋势 
00 二 Fig.4 Trend of recall rate and precision rate changes with the length 
65% SWDTAIFA of text 
人 100 200 300 400 500 在 文本 长 度 小 于 28 个 字 时 , 三 种 算法 的 查 全 率 和 查 准 率 
文本 篇 数 非常 高 ， 而 RSWDT 党 法 随 着 数据 的 增长 查 全 率 和 查 准 率 会 
(b) 查 准 率 缓慢 降低 并 趋 于 平稳 。 在 文本 长 度 介 于 112~140 个 字 时 ， 
(b)Accuracy RSWDT 的 查 全 率 趋 于 稳定 ， 达 到 了 95%。 而 STDFA 和 
图 3 查 全 率 和 查 准 率 随 文本 篇 数 改变 的 变化 趋势 SWDT-IFA 算法 随 着 文本 长 度 增 加 ， 查 全 率 会 波动 并 明显 减 
Fig.3 Trend of recall rate and precision rate changes with number of 少 , RSWDT 的 查 准 率 稳 定 在 95%。 而 STDFA 和 SWDT-IFA 
texts 算法 随 着 文本 字数 的 增加 ， 查 准 率 较 低 且 下 降 趋 势 明显 。 总 
在 文本 篇 数 为 100 时 ， 三 种 算法 的 查 全 率 和 查 准 率 相 比 。 体 看 来 RSWDT 的 查 准 率 高 于 STDFA 和 SWDT-IFA 算法 。 
文本 篇 数 为 500 时 较 低 ， 可 能 是 由 于 数据 量 太 少 ， 一 个 错误 、 4.3.2 三 种 敏感 词 变 形体 识别 有 效 性 对 比 


在 本 实验 中 ， 选 取 含 有 敏感 词 变形 体 的 文本 1 500 篇 ， 


增长 ， 查 全 率 和 查 准 率 会 慢 慢 趋 于 平稳 。 在 文本 篇 数 为 500 将 其 随机 分 成 五 组 进行 测试 : 第 一 组 为 100 篇 , 第 二 组 为 200 
时 ,RSWDT 的 查 全 率 和 查 准 率 分 别 达 到 最 高 ,达到 了 95%。 篇 ， 第 三 组 为 300 篇 ， 第 四 组 为 400 篇 ， 第 五 组 为 500 篇 。 
而 STDFA 算法 随 着 文本 篇 数 的 增加 ， 查 准 率 较 低 且 有 下 降 ”然后 通过 敏感 词 的 三 种 变形 体 的 查 准 率 、 查 全 率 两 个 方面 来 
趋势 ，SWDT-IFA 的 查 准 率 波动 较 大 。 总 体 看 来 RSWDT 的 ” 验证 本 文 提出 的 RSWDT 算法 的 有 效 性 。 查 全 率 对 比 实验 结 
全 率 和 查 准 率 高 于 STDFA 和 SWDT-IFA 算法 。 主 要 原因 果 如 图 5(a) 所 示 ， 查 准 率 实验 对 比 结果 如 图 5(b〉 所 示 。 
是 本 文 提出 的 RSWDT 算法 不 仅 可 以 识别 敏感 词 ， 而 且 可 以 在 文本 篇 数 为 100 时 ， 三 种 变形 体 的 查 全 率 和 查 准 率 都 
有 效 识 别 敏感 词 变形 体 ， STDFA、SWDT-IFA 算法 虽然 可 以 比较 低 ， 可 能 是 由 于 数据 量 太 少 ， 一 个 错误 的 识别 就 对 实验 
有 效 识 别 敏感 词 及 简单 的 含有 拼音 的 敏感 词 变形 体 ， 但 对 其 结果 有 很 大 影响 ， 所 以 随 着 数据 的 增长 ， 查 全 率 和 查 准 率 会 
余 大 部 分 敏感 词 变 形体 无 处 理 能 力 。 曼 慢 趋 于 平稳 。 在 文本 篇 数 为 500 时 ， 拼 音 模式 的 查 全 率 最 
b) 文 本 长 度 对 敏感 词 及 变形 体 识别 的 查 全 率 和 查 准 率 的 高 ， 达 到 了 93%， 拼 音 模式 的 查 准 率 最 高 ， 达 到 了 94%。 
影响 对 比 。 从 查 全 率 来 看 ,敏感 词 拼 音 模式 的 查 全 率 高 于 简称 模式 ， 
于 微 博 文本 长 度 最 大 为 140 字 ， 按 照 28 个 字 为 单位 ， 简称 模式 又 高 于 拆 分 模式 ， 主 要 原因 可 能 是 汉字 的 构造 很 复 
将 微 博 文本 分 为 微 文本 (0~28 个 字 )、 短 文本 (29~56 个 字 )、 杂 ， 人 为 拆 分 时 对 汉字 的 组 成 部 件 的 分 析 不 够 全 面 ， 而 简称 
小 文本 (57~84 个 字 )、 中 文本 (85~112 个 字 ) 及 大 文本 ”中 汉字 组 成 方式 过 多 。 从 查 准 率 来 看 ， 敏 感 词 拆 分 模式 的 查 
(113~140 个 字 ) 共 五 类 。 在 本 实验 中 ， 从 包含 有 敏感 词 变 准 率 高 于 拼音 模式 ， 拼 音 模式 又 高 于 简称 模式 ， 主 要 原因 可 
区 体 的 文本 中 ， 对 每 类 文本 中 各 随机 选取 500 篇 进行 实验 。 能 是 敏感 词 拆 分 模式 虽然 很 复杂 , 但 汉字 组 成 结构 比较 固定 ， 
RSWDT 与 STDFA、SWDTIFA 的 查 全 率 对 比 实验 结果 ”只 要 能 识别 出 来 基本 就 不 会 有 错 ， 敏 感 词 简称 模式 的 汉字 和 
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音 也 比较 固定 ， 而 拼音 模式 中 易 混 拼 音 对 结果 的 干扰 比较 
大 。 
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96% 
94% 
92% 


树 90% 
作 ggo 
划 88% 
86% 

84% 4 一 拼 癌 模 

82% 一 惫 一 简称 模式 

拆 分 模式 

80% 一 
100 200 300  ， 400 500 
文本 篇 数 
(a) 查 全 率 


(a)Recall rate 
96.0% 


395.5% -多 


we 一 一 一 
94.5% 


ee EN 

抽 94.0% 

区 93.5% 一 一 拼音 模式 
93.0% 一 中 一 简称 模式 
92.5% 拆 分 模式 
92.0% 

100 200 300 400 500 
文本 篇 数 
(b) 查 ; 佳节 人 
(b)Accuracy 


图 5 不 同 变形 体 的 查 全 率 和 碍 准 率 变化 趋势 
Fig.5 Trend of recall rate and precision rate of different deformed 
bodies 
4.3.3 敏感 度 冰 值 设 定 对 文本 敏感 信息 过 滤 效 果 影 响 对 比 
为 了 验证 文本 敏感 信息 过 滤 的 可 行 性 ， 本 文 抽取 2 132 
篇 文本 进行 编号 , 然后 随机 分 成 4 个 样本 , 每 个 样本 含有 533 
篇 ， 将 每 个 样本 分 给 100 个 人 ， 要 求 这 100 个 人 对 文本 中 的 
敏感 词 进行 识别 统计 并 对 文本 的 敏感 程度 进行 判断 ， 判 断 结 
果 分 为 三 类 ， 并 分 别 用 不 同 的 符号 进行 标记 ， 敏 感度 最 高 类 
可 表示 为 A， 敏 感度 中 等 类 可 表示 为 B， 不 需 处 理 类 可 表示 
为 C。 将 100 个 人 判断 的 每 篇 文本 的 敏感 词 个 数 取 平均 值 ， 
将 100 个 人 判断 的 文本 类 别 取 最 多 的 类 别 作为 最 后 的 分 类 结 
果 ， 如 表 5 所 示 。 


表 5 实验 文本 敏感 程度 表 


: 基于 决策 树 的 敏感 词 变 形体 识别 算法 研究 及 应 用 


Table5 Table of sensitivity of experimental text 
文本 序号 敏感 词 个 数 文本 敏感 程度 类 别 
1 8 A 
2 5 C 
3 4 C 
4 5 B 
5 6 C 
6 6 B 
2132 7 A 


分 别 对 每 个 类 别 的 敏感 词 个 数 取 平 均值 , 其 中 A 类 文本 


ChinaXiv 合 作 期 刊 


第 37 卷 第 5 期 


本 进行 敏感 程度 的 计算 ， 设 阔 值 4+、s 〈s<4<1)。 当 实验 
结果 大 于 4 ， 该 文本 为 A 类 ; 当 实 验 结果 小 于 <， 该 文本 为 
C 类 ; 当 实 验 结果 介 于 4 与 之 间 ， 该 文本 为 B 类 。 
取 高 阔 值 2 为 0.8， 低 阔 值 = 分别 取 值 为 0.3、0.4 和 0.5 
进行 三 组 实验 , 将 结果 与 表 5 进行 比较 . 当 与 人 工 判断 结果 相 
同时 加 1， 最 后 与 每 个 样本 中 含有 的 文本 篇 数 533 求 比值 。 
实验 结果 如 图 6 (Ca) 所 示 。 
取 低 阐 值 :为 0.3， 高 阔 值 4 分 别 取 值 为 0.6、0.7 和 0.8 
进行 三 组 实验 , 将 结果 与 表 5 进行 比较 . 当 与 人 工 判 断 结果 相 
同时 加 1， 最 后 与 每 个 样本 中 含有 的 文本 篇 数 533 求 比值 。 
实验 结果 如 图 6 (b) 所 示 。 


93% 


92% 


Re 
总 
3 


90% 


与 人 工 判断 结果 重合 率 
图 


样本 1 样本 2 样本 3 样本 4 
样本 


(a) 敏 感度 低 阀 值 分 别 为 0.3、0.4 和 0.5 


(a) Low sensitivity thresholds were 0.3, 0.4 and 0.5, respectively 


样本 1 样本 2 4 样本 3 样本 4 


(b) 敏 感度 高 闷 值 分 别 为 0.6、0.7 和 0.8 
(b) High sensitivity thresholds were 0.6, 0.7 and 0.8, respectively 
6 不 同 闵 值 设置 对 文本 敏感 信息 过 滤 效 果 的 影响 


Influences of different threshold settings on filtering effect of 


Fig. 6 
text sensitive information 
从 图 6 (a) 人 当 低 阔 值 = 取 0.3 时 与 人 工 判 
断 结 果 的 重合 度 ; 从 (b) 中 可 以 看 出 ， 当 高 阔 值 4 取 0.7 
时 与 人 工 判 电 结 果 的 重合 度 最 高 。 综 上 ， 当 低 阅 信 = 取 03、 
高 阅 值 4 取 0.7 时 ， 实 验 结果 更 接近 人 工 识别 的 结果 。 
4.3.4 实验 结论 
实验 结果 表明 ， 基 于 决策 树 的 敏感 词 变形 体 识别 算法 
(RSWDT) 对 中 文敏 感 词 变形 体 的 识别 有 较 高 的 准确 率 。 通 
过 对 文本 敏感 程度 的 计算 能 够 全 面 的 体现 文本 的 敏感 性 ， 不 
仅 可 以 减少 人 工 的 工作 量 ， 也 为 含有 敏感 信息 的 文本 处 理 提 
供 了 更 直观 可 靠 地 依据 ， 有 效 地 过 滤 掉 敏感 信息 ， 实 现 文本 
的 自动 过 滤 。 


5 ”结束 语 


基于 决策 树 的 敏感 词 变形 体 算法 能 够 有 效 的 识别 出 词 的 
拼音 、 词 的 简称 和 词 的 拆 分 三 种 敏感 词 变 形体 。 基 于 多 因子 


含有 敏感 词 变形 体 平 均 个 数 为 7 个 ，B 类 含有 4 个 ，C 类 含 
有 2 个 。 从 整理 后 的 结果 中 可 以 看 出 ，A 类 文本 的 敏感 词 个 
数 明显 高 于 B 类 文本 ，B 类 明显 高 于 C 类 。 由 此 可 以 得 出 人 
在 一 般 情况 下 是 根据 敏感 词 个 数 来 判断 文本 的 敏感 程度 ， 文 
本 中 敏感 词 个 数 越 多 ， 则 认为 文本 的 敏感 程度 越 高 。 

接 下 来 用 本 文 提出 的 敏感 程度 计算 方法 ， 对 2 132 篇 文 


改进 模型 对 文本 进行 敏感 程度 计算 ， 从 而 达到 文本 自动 过 滤 
的 效果 。 本 文 提 出 的 算法 有 效 地 提高 了 敏感 信息 特别 是 敏感 
词 变形 体 识 别 和 过 滤 的 准确 率 和 效率 。 实 验证 明 ， 其 效果 更 
接近 于 人 工 识 刘 的 绩 符 。 但 是 此 类 研究 缺少 对 词 与 词 之 间 的 
语义 分 析 ， 需 要 人 工 对 文本 的 正 向 与 反 向 意思 进行 判断 ， 当 


录用 定稿 余 敦 辉 
敏感 信息 文本 较 多 时 ， 工 作 量 会 比较 大 ， 所 以 汉字 之 间 的 关 
系 和 语义 是 非常 重要 的 ， 这 也 是 本 文 下 一 步 的 工作 。 
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